\section{特征值与特征向量}

\begin{frame}{本节概要}
  \begin{enumerate}
    \item 我们将讨论线性变换 (或一个方阵) 的特征值与特征向量，对于线性变换的研究具有基本的重要性。
    \item 为了求特征值和特征向量，我们引入了方阵的特征多项式。方阵$A$的特征多项式指$\det (\lambda E-A)$.
      我们将看到线性变换 $\sA$ 的特征值恰为其在 (任意) 一组基下矩阵 $A$ 的特征多项式在基域中的根。
      若 $\lambda_0$ 为 $\sA$ 的特征值，
  $\sA$ 的属于特征值 $\lambda_0$ 的特征向量的坐标向量恰为齐次线性方程组 $(\lambda_0 E-A)X=0$ 的非零解。
  这将求特征值和特征向量归结为求特征多项式的根和解线性方程组。
\item 我们会稍微讨论下特征多项式的系数，方阵的迹 (所有对角元素之和) 和行列式会出现。
  若 $n$ 阶方阵有 $n$个特征值 (按重数计入), 则所有特征值之和等于迹，
  所有特征值之积等于行列式。
\item 如果方阵的一个量是相似不变量，或者说，这个量对相似的方阵是一样的，
那么我们可以对线性变换谈相应的量，就定义成其在某组基下的矩阵的该量，相似不变性表明这样的定义不依赖于基的选取。
特征多项式是相似不变量，特别地，迹和行列式是相似不变量；秩也是相似不变量；\ldots。
因此可谈线性变换的特征多项式、迹、行列式、秩等。
  \end{enumerate}
\end{frame}

\begin{frame}{本节概要}
  \begin{enumerate}
      \setcounter{enumi}{5}
\item 我们会谈到特征子空间。属于某个特征值的特征子空间就是该特征值的全部特征向量再添上零向量所成的集合，
  这是个子空间。此子空间的维数称为该特征值的几何重数。
  实际上，$n$阶方阵$A$的属于特征值$\lambda_0$的特征子空间正是齐次线性方程组$(\lambda_0 E-A)X=0$的解空间，
  故该特征值的几何重数等于$n-\rank (\lambda_0 E-A)$;
  而固定所给线性空间$V$的一组基后，$V$上线性变换$\sA$的属于特征值$\lambda_0$的特征子空间可描述为
  坐标落在其矩阵$A$的属于特征值$\lambda_0$的特征子空间的那些$V$中向量。
  另一方面，特征值作为特征多项式的根的重数称为代数重数。
  一个特征值的代数重数和几何重数是相似不变量。
  几何重数总不超过代数重数 (参见引理~\ref{12A})。
\item 最后我们会讲到一个重要的结论---Hamilton-Cayley定理。这个定理说的是：
  一个线性变换或一个方阵可以被其特征多项式零化。
  \end{enumerate}
\end{frame}


\begin{frame}{特征值与特征向量的概念}
我们知道， 在有限维线性空间中， 取了一组基之后， 线性变换就可以用矩阵来表示。 
为了利用矩阵来研究线性变换， 对于每个给定的线性变换， 我们希望能找到一组基， 使得它的矩阵具有最简单的形式。 
从现在开始， 我们主要讨论， 在适当地选择基之后， 一个线性变换的矩阵可以化成什么样的简单形式。 
为了这个目的， 先介绍特征值和特征向量的概念，它们对于线性变换的研究具有基本的重要性。
\begin{definition}
设 $\sA$ 是数域 $P$ 上线性空间 $V$ 的一个线性变换， 如果对于某个 $\lambda_{0}\in P$, 存在一个非零向量 $ \xi$, 使得
\[\tag{1}
\mathscr{A} \xi=\lambda_{0} \xi,
\]
那么 $\lambda_{0}$ 称为 $\mathscr{A}$ 的一个\emph{特征值} (eigenvalue)， $\xi$ 称为 $\mathscr{A}$ 的属于特征值 $\lambda_{0}$ 的一个\emph{特征向量} (eigenvector)，$(\lambda_0, \xi)$ 称为 $\sA$ 的一个\emph{特征对} (eigenpair)。
\end{definition}

从几何上来看， 特征向量的方向经过线性变换后， 保持在同一条直线上， 这时或者方向不变 $\left(\lambda_{0}>0\right)$, 或者方向相反 $\left(\lambda_{0}<0\right)$, 至于 $\lambda_{0}=0$ 时， 特征向量就被线性变换变成 $\symbf{0}$.

如果 $\xi$ 是线性变换 $\mathscr{A}$ 的属于特征值 $\lambda_{0}$ 的特征向量， 那么 $\xi$ 的任何一个非零倍数 $k \xi$ 也是 $\mathscr{A}$ 的属于 $\lambda_{0}$ 的特征向量。 因为从 (1) 式可以推出
$
\mathscr{A}(k  \xi)=\lambda_{0}(k  \xi) .
$
这说明特征向量不是被特征值所唯一决定的。 相反， 特征值却是被特征向量所唯一决定的，因为，一个特征向量只能属于一个特征值。
\end{frame}

\begin{frame}{特征值和特征向量的求法}
  现在来给出寻找特征值和特征向量的方法。 设 $V$ 是数域 $P$ 上 $n$ 维线性空间， 
  $\symbb{B}=(\varepsilon_{1}$, $\varepsilon_{2}, \cdots, \varepsilon_{n})$ 是它的一组基， 
  线性变换 $\mathscr{A}$ 在这组基下的矩阵是 $A$.
  设 $\lambda_{0}$ 是特征值， 
  它的一个特征向量 $ \xi$ 在基 $\symbb{B}$ 下的坐标是 $X_0=(x_{01}, x_{02}, \cdots, x_{0 n})^{\rT}$, 
  则 $\mathscr{A}  \xi$ 和 $\lambda_{0} \xi$ 的坐标分别是
%\[
%   A\begin{pmatrix}
%    x_{01} \\
%  x_{02} \\
%\vdots \\
%x_{0 n}
%\end{pmatrix},\quad
%\lambda_{0}\begin{pmatrix}
%  x_{01} \\
%x_{02} \\
%\vdots \\
%x_{\theta n}
%\end{pmatrix}.
%\]
  \[
    AX_0, \quad \lambda_0 X_0.
  \]
因此(1)式相当于坐标之间的等式
\[
  AX_0=\lambda_0 X_0.
\]
%\[
%  A\begin{pmatrix}
%    x_{01} \\
%  x_{02} \\
%\vdots \\
%x_{0 n}
%\end{pmatrix}=\lambda_{0}\begin{pmatrix}
%  x_{01} \\
%x_{02} \\
%\vdots \\
%x_{0 n}
%\end{pmatrix}
%\]
%或
%\[
%  \left(\lambda_{0}  E- A\right)\begin{pmatrix}
%    x_{01} \\
%  x_{02} \\
%\vdots \\
%x_{0 n}
%\end{pmatrix}=\symbf{0}.
%\]
%
  这说明特征向量 $ \xi$ 的坐标 $X_0=(x_{01}, x_{02}, \cdots, x_{0 n})^{\rT}$ 满足齐次方程组
\[\tag{3}
  (\lambda_0 E-A)X=0.
\]
%\[
%\left\{\begin{array}{c}
%a_{11} x_{1}+a_{12} x_{2}+\cdots+a_{1 n} x_{n}=\lambda_{0} x_{1}, \\
%a_{21} x_{1}+a_{22} x_{2}+\cdots+a_{2 n} x_{n}=\lambda_{0} x_{2}, \\
%\cdots \cdots \cdots \cdots \\
%a_{n 1} x_{1}+a_{n 2} x_{2}+\cdots+a_{n n} x_{n}=\lambda_{0} x_{n},
%\end{array}\right.
%\]
%即
%\[
%\left\{\begin{array}{c}
%\left(\lambda_{0}-a_{11}\right) x_{1}-a_{12} x_{2}-\cdots-a_{1 n} x_{n}=0, \\
%-a_{21} x_{1}+\left(\lambda_{0}-a_{22}\right) x_{2}-\cdots-a_{2 n} x_{n}=0, \\
%\cdots \cdots \cdots \cdots \\
%-a_{n 1} x_{1}-a_{n 2} x_{2}-\cdots+\left(\lambda_{0}-a_{n n}\right) x_{n}=0 .
%\end{array}\right.
%\]
由于 $\xi \neq \symbf{0}$, 所以它的坐标向量 $X_0=(x_{01}, x_{02}, \cdots, x_{0 n})^{\rT}$ 非零 
(即 $x_{01}, x_{02}, \cdots, x_{0 n}$ 不全为零)， 
故齐次方程组 $(\lambda_0 E-A)X=0$ 有非零解。 

~

我们知道，齐次线性方程组 $(\lambda_0 E-A)X=0$ 有非零解的充分必要条件是它的系数行列式为零， 即
\end{frame}


\begin{frame}


\[
\left|\lambda_{0}  E- A\right|=\begin{vmatrix}
\lambda_{0}-a_{11} & -a_{12} & \cdots & -a_{1 n} \\
-a_{21} & \lambda_{0}-a_{22} & \cdots & -a_{2 n} \\
\vdots & \vdots & & \vdots \\
-a_{n 1} & -a_{n 2} & \cdots & \lambda_{0}-a_{n n}
\end{vmatrix}=0 .
\]

我们引入以下的定义。

\begin{definition}
  设 $ A$ 是数域 $P$ 上- $n$ 阶矩阵， $\lambda$ 是一个文字。 矩阵 $\lambda  E- A$ 的行列式
\[
|\lambda  E- A|=\begin{vmatrix}
\lambda-a_{11} & -a_{12} & \cdots & -a_{1 n} \\
-a_{21} & \lambda-a_{22} & \cdots & -a_{2 n} \\
\vdots & \vdots & & \vdots \\
-a_{n 1} & -a_{n 2} & \cdots & \lambda-a_{n n}
\end{vmatrix} \in P[\lambda]
\]
称为 $ A$ 的\emph{特征多项式} (characteristic polynomial)， 这是数域 $P$ 上的一个 $n$ 次首一多项式。
\end{definition}

\begin{lemma}
  $\sA$ 的特征值恰为 $A$ 的特征多项式在基域中的根。若 $\lambda_0$ 为 $\sA$ 的特征值，
  $\sA$ 的属于特征值 $\lambda_0$ 的特征向量的坐标向量恰为齐次线性方程组 $(\lambda_0 E-A)X=0$ 的非零解。
\end{lemma}


\end{frame}

\begin{frame}
  \begin{proof}
  上面的分析说明，如果 $\lambda_{0}$ 是线性变换 $\mathscr{A}$ 的特征值，
  那么 $\lambda_{0}$ 一定是矩阵 $A$ 的特征多项式的一个根。 
反过来的论证基本上是把上面的分析过程逆过来。
如果 $\lambda_{0}$ 是矩阵 $ A$ 的特征多项式在数域 $P$ 中的一个根， 
即 $\left|\lambda_{0}  E- A\right|=0$, 那么齐次线性方程组 (3) 就有非零解。 
这时， 如果 $X_0=\left(x_{01}, x_{02}, \cdots, x_{0 n}\right)^{\rT}$ 是方程组 (3) 的一个非零解，那么非零向量
\[
  \xi=\symbb{B}X_0=x_{01}  \varepsilon_{1}+x_{02}  \varepsilon_{2}+\cdots+x_{0 n}  \varepsilon_{n}
\]
满足 (1), 即 $\lambda_{0}$ 是线性变换 $\mathscr{A}$ 的一个特征值， 
$ \xi$ 就是属于特征值 $\lambda_{0}$ 的一个特征向量。
\end{proof}

因此，确定一个线性变换 $\sA$ 的特征值与特征向量的方法可以分成以下几步：
\begin{enumerate}
  \item 在线性空间 $V$ 中取一组基 $\symbb{B}=(\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{n})$, 写出 $\mathscr{A}$ 在这组基下的矩阵 $A$;
  \item 求出 $ A$ 的特征多项式 $|\lambda  E- A|$ 在数域 $P$ 中全部的根， 它们也就是线性变换 $\mathscr{A}$ 的全部特征值;
  \item 把所求得的特征值逐个地代入方程组 (3), 对于每一个特征值， 解方程组 (3), 求出一组基础解系， 它们就是属于这个特征值的极大线性无关的一组特征向量在基 $\symbb{B}$ 下的坐标， 这样， 我们也就求出了属于每个特征值的极大线性无关的一组特征向量。
\end{enumerate}
矩阵 $ A$ 的特征多项式的根也称为 $ A$ 的\emph{特征值} (eigenvalue)，而相应的线性方程组 (3) 的非零解也就称为 $ A$ 的属于这个特征值的\emph{特征向量} (eigenvector)。
\end{frame}

\begin{frame}

\begin{example}
在 $n$ 维线性空间中，由乘以 $k\in P$ 定义的数乘变换 $\mathscr{K}$ 在任意一组基下的矩阵都是 $k  E$, 它的特征多项式是
\[
|\lambda  E-k  E|=(\lambda-k)^{n} .
\]
因此，数乘变换 $\mathscr{K}$ 的特征值只有 $k$. 由定义可知， 每个非零向量都是属于数乘变换 $\mathscr{H}$ 的特征向量。
\end{example}
\begin{example}\label{000}
设线性变换 $\mathcal{A}$ 在基 $\varepsilon_{1}, \varepsilon_{2}, \varepsilon_{3}$ 下的矩阵是
\[
  A=\begin{pmatrix}
    1 & 2 & 2 \\
  2 & 1 & 2 \\
2 & 2 & 1
\end{pmatrix}
\]
我们来求 $\mathscr{A}$ 的特征值与特征向量。
因为特征多项式为 (见第二章例~\ref{15A})
\[
  |\lambda  E- A|=\begin{vmatrix}
  \lambda-1 & -2 & -2 \\
-2 & \lambda-1 & -2 \\
-2 & -2 & \lambda-1
\end{vmatrix}=(\lambda+1)^{2}(\lambda-5) .
\]
把特征值 $\lambda=-1$ 代入齐次方程组 $(\lambda E-A)X=0$ 得齐次线性方程组 $(-E-A)X=0$.
\end{example}
\end{frame}

\begin{frame}

  \addtocounter{theorem}{-1}
\begin{example}[续]
行化简其系数矩阵可知它的一个基础解系是
\[
\begin{pmatrix}
1 \\
0 \\
-1
\end{pmatrix}, \quad\begin{pmatrix}
0 \\
1 \\
-1
\end{pmatrix}
\]
因此，属于 $-1$ 的两个线性无关的特征向量就是
\[
\xi_{1}=\varepsilon_{1}-\varepsilon_{3}, \quad \xi_{2}=\varepsilon_{2}-\varepsilon_{3} .
\]
而属于 $-1$ 的全部特征向量就是 $k_{1} \xi_{1}+k_{2} \xi_{2}, k_{1}, k_{2}$ 是数域 $P$ 中不全为零的任意数。 
再把特征值 $\lambda=5$ 代入齐次线性方程组 $(\lambda E-A)X=0$ 得线性方程组 $(5E-A)X=0$.
行化简其系数矩阵可知它的一个基础解系为
\[
\begin{pmatrix}
1 \\
1 \\
1
\end{pmatrix}
\]
因此，属于 $\lambda=5$ 的一个线性无关的特征向量就是
\[
\xi_{3}=\varepsilon_{1}+\varepsilon_{2}+\varepsilon_{3},
\]
而属于 $5$ 的全部特征向量就是 $k \xi_{3}$, 其中 $k$ 是数域 $P$ 中不等于零的任意数。
\end{example}
\end{frame}


\begin{frame}
  \begin{example}
  在空间 $P[x]_{n}$ 中，线性变换
  \[
  \mathscr{D} f(x)=f^{\prime}(x)
\]
在基 $1, x, \frac{x^{2}}{2 !}, \cdots, \frac{x^{n-1}}{(n-1) !}$ 下的矩阵是
\[
   D=\begin{pmatrix}
        0 & 1 & 0 & \cdots & 0 \\
        0 & 0 & 1 & \cdots & 0 \\
      \vdots & \vdots & \vdots & & \vdots \\
    0 & 0 & 0 & \cdots & 1 \\
  0 & 0 & 0 & \cdots & 0
\end{pmatrix}.
\]
$D$ 的特征多项式是
\[
  |\lambda  E- D|=\begin{vmatrix}
    \lambda & -1 & 0 & \cdots & 0 \\
  0 & \lambda & -1 & \cdots & 0 \\
\vdots & \vdots & \vdots & & \vdots \\
0 & 0 & 0 & \cdots & -1 \\
0 & 0 & 0 & \cdots & \lambda
\end{vmatrix}=\lambda^{n} .
\]
因此， $D$ 的特征值只有 $0$. 通过解相应的齐次线性方程组知道，
属于特征值 $0$ 的线性无关的特征向量组只能是任一非零常数。 
这表明微商为零的多项式只能是零或非零的常数。
\end{example}


\end{frame}


\begin{frame}
  \begin{example}
  平面上全体向量构成实数域上一个二维线性空间， 旋转 $\theta$ 角度定义的线性变换 
  $\mathscr{J}_{\theta}$ 在直角坐标系下的矩阵为
  \[
    \begin{pmatrix}
          \cos \theta & -\sin \theta \\
          \sin \theta & \cos \theta
    \end{pmatrix}
\]
它的特征多项式为
\[
  \begin{vmatrix}
    \lambda-\cos \theta & \sin \theta \\
  -\sin \theta & \lambda-\cos \theta
\end{vmatrix}=\lambda^{2}-2 \lambda \cos \theta+1.
\]
当 $\theta \neq k \pi$ 时 (其中 $k\in\bZ$)， 这个多项式没有实根。 
因之， 当 $\theta \neq k \pi$ 时， $\mathscr{J}_{\theta}$ 没有特征值。 
从几何上看， 这个结论是明显的。
\end{example}

\pause
  \begin{example}
     $A\in P^{n\times n}$ 可逆当且仅当 $0$ 不是 $A$ 的特征值。
这是因为$A\in P^{n\times n}$ 可逆当且仅当齐次线性方程组 $AX=0$ 只有平凡解。
  \end{example}
\end{frame}

\begin{frame}


  \begin{example}\label{18A}
    令 $A\in P^{n\times n}$, 假设 $(\lambda_0, \xi)$ 为 $A$ 的一个特征对。
  \begin{enumerate}
  \item $\lambda_0$ 是 $A^{\rT}$ 的特征值，因为$|\lambda E-A|=|\lambda E-A^{\rT}|$.\\
  \item 若 $A$ 可逆，则 $(\lambda_0^{-1}, \xi)$ 为 $A^{-1}$ 的特征对，$(|A|\lambda_0^{-1}, \xi)$ 为 $A^*$的特征对 (因$A^*=|A|A^{-1}$)。
  \item  对 $k=1,2,\cdots$, $(\lambda_0^k, \xi)$ 为 $A^k$ 的特征对。
    一般地，对多项式 $f(\lambda)\in P[\lambda]$, $(f(\lambda_0), \xi)$ 为 $f(A)$ 的特征对。
      特别地，$(d-\lambda_0, \xi)$ 为 $d E -A $ 的特征对。
    \end{enumerate}
\end{example}

  \begin{example}
\begin{enumerate}
  \item 若 $A=\begin{pmatrix}
          A_1 & A_3\\ 0 & A_2
        \end{pmatrix}$ 是准上三角阵，$p(\lambda), p_1(\lambda), p_2(\lambda)$ 
        分别为 $A, A_1, A_2$ 的特征多项式，则 $p(\lambda)=p_1(\lambda)p_2(\lambda)$.
        特别地，$A$ 的特征值由 $A_1, A_2$ 的特征值合并得到 (重根按重数记入)。
        诚然，由准上三角阵的行列式公式我们知
        \[
            p(\lambda)= |\lambda E-A|=\begin{vmatrix}
            \lambda E -A_1 & -A_3 \\ 0 & \lambda E-A_2
          \end{vmatrix}
         = |\lambda E-A_1|\cdot |\lambda E-A_2|
          =  p_1(\lambda)p_2(\lambda).
        \]
      \item 若 $A=\begin{pmatrix}
          \lambda_1 & \cdots & * \\
          & \ddots & \vdots \\
          & & \lambda_n
        \end{pmatrix}$为上三角矩阵， 则 $A$ 的 $n$ 个特征值为 $\lambda_1, \cdots, \lambda_n$.
        诚然，计算下$\lambda E-A$的行列式立得（也可由 (1) 得到）。
\end{enumerate}
  \end{example}
\end{frame}

\begin{frame}{特征多项式的表达式}
在线性变换的研究中，矩阵的特征多项式是重要的。下面先来看一下它的系数。 
\begin{theorem}\label{189}
  设 $A\in P^{n\times n}$ 的特征多项式为
  \[\tag{4}
    p(\lambda)=\lambda^n +\sum_{i=1}^{n} (-1)^{i} c_{i} \lambda^{n-i}=\lambda^n-c_1\lambda^{n-1}+c_2 \lambda^{n-2}+\cdots + (-1)^n c_n.
  \]
  那么 $c_{i}$ 等于 $A$ 的所有 $i$ 阶主子式之和，
  即
  \[
    c_{i}=\sum_{1\leqslant j_1 < \cdots < j_i \leqslant n} \begin{vmatrix}
      a_{j_1 j_1 } & a_{j_1 j_2} & \cdots & a_{j_1 j_i} \\
      a_{j_2 j_1 } & a_{j_2 j_2} & \cdots & a_{j_2 j_i} \\
      \vdots & \vdots & & \vdots \\
      a_{j_i j_1 } & a_{j_i j_2} & \cdots & a_{j_i j_i} 
    \end{vmatrix}.
  \]
\end{theorem}

如果只写出特征多项式的前两项与常数项， 就有
\[
  |\lambda  E- A|=\lambda^{n}-\tr (A) \lambda^{n-1}+\cdots+(-1)^{n}\det(A).
\]
其中 $\tr(A)=a_{11}+a_{22}+\cdots+a_{n n}$ 为 $A$ 的迹，$\det(A)$ 为 $A$ 的行列式。
\end{frame}

\begin{frame}


  我们解释下为何 
  \[
    c_{1}=\tr(A),\quad  c_n=\det(A).
  \]
在
\[
  |\lambda  E- A|=\begin{vmatrix}
  \lambda-a_{11} & -a_{12} & \cdots & -a_{1 n} \\
-a_{21} & \lambda-a_{22} & \cdots & -a_{2 n} \\
\vdots & \vdots & & \vdots \\
-a_{n 1} & -a_{n 2} & \cdots & \lambda-a_{n n}
\end{vmatrix}
\]
的展开式中， 有一项是主对角线上元素的连乘积
\[
\left(\lambda-a_{11}\right)\left(\lambda-a_{22}\right) \cdots\left(\lambda-a_{n n}\right) .
\]
展开式中的其余各项，至多包含 $n-2$ 个主对角线上的元素， 它对 $\lambda$ 的次数最多是 $n-2$.因此特征多项式中含 $\lambda$ 的 $n$ 次与 $n-1$ 次的项只能在主对角线上元素的连乘积中出现，它们是
\[
\lambda^{n}-\left(a_{11}+a_{22}+\cdots+a_{n n}\right) \lambda^{n-1} .
\]
在特征多项式中令 $\lambda=0$, 即得常数项 $|- A|=(-1)^{n}| A|$.
\end{frame}


\begin{frame}
  \begin{corollary}
    如果 $A\in P^{n\times n}$ 的特征多项式 $p(\lambda)$ 在数域 $P$ 上能分解为一次因式的乘积：
    \[
      p(\lambda)=\prod_{i=1}^n (\lambda-\lambda_i),
    \]
    那么由根与系数的关系可知
    \[\tr(A)=\sum_{i=1}^n \lambda_i,\quad \det(A)=\prod_{i=1}^n \lambda_i.\]
  \end{corollary}

  注意到定理~\ref{189}~等价于说：
对$n$阶方阵$M$我们有
\[
  \det (\varepsilon E + M) = \varepsilon^n+c_1 \varepsilon^{n-1}+\cdots + c_{n-1} \varepsilon + c_n,
\]
其中$c_i$为方阵$M\in P^{n\times n}$的所有$i$阶主子式之和。%
\footnote{我们提供两种证明方法。
\emph{方法一}：对下面的乘积应用Cauthy-Binet公式：
  \[
    \varepsilon E+M=\begin{pmatrix}  \varepsilon E & E \end{pmatrix}
    \begin{pmatrix}  E \\ M \end{pmatrix}.
\]
\\
\emph{方法二}：注意到行列式是关于方阵的元素的``整系数''多项式（能提升到整数环中），
因此我们在整数环上证明即可（即便基域是不必是数域的一般的域）。
要在整数环上证明，我们可以在复数域上证明，
这时  (4) 右边可以看作是Taylor展开式，
所以可以通过对$\det(\lambda E-A)$不断求导来确定$c_i$.}
\end{frame}


\begin{frame}{相似不变量}
特征值自然是被线性变换所决定的。但是在有限维空间中，任取一组基之后，特征值就是线性变换在这组基下矩阵的特征多项式的根。 随着基的不同，线性变换的矩阵一般是不同的。但是这些矩阵是相似的，对于相似矩阵我们有

\begin{theorem}
相似的矩阵有相同的特征多项式。
\end{theorem}
\begin{proof}
设 $ A$ 与 $ B$ 相似, 即有可逆矩阵 $ X$, 使 $ B= X^{-1}  A  X$. 于是
\[
|\lambda E-B|=\left|\lambda E-X^{-1} A X\right|=\left|X^{-1}(\lambda E-A) X\right|=\left|X^{-1}\right||\lambda E-A||X|=|\lambda E-A| . 
\]
\end{proof}
  \begin{nonexample}
    应该指出，上述定理的逆是不对的，特征多项式相同的矩阵不一定是相似的。例如
\[
A=\begin{pmatrix}
1 & 0 \\
0 & 1
\end{pmatrix}, \quad B=\begin{pmatrix}
1 & 1 \\
0 & 1
\end{pmatrix}
\]
它们的特征多项式都是 $(\lambda-1)^{2}$, 但 $ A$ 和 $ B$ 不相似， 因为和 $ A$ 相似的矩阵只有 $ A$ 自己。

  \end{nonexample}

\end{frame}

\begin{frame}
上述定理正好说明，线性变换的矩阵的特征多项式与基的选择无关，它是直接被线性变换决定的。因此，以后就可以说线性变换的特征多项式了。

既然相似的矩阵有相同的特征多项式，当然特征多项式的各项系数对于相似的矩阵来说都是相同的。 
特别地，相似矩阵有相同的迹和行列式。
因此，以后就可以说线性变换的迹和行列式了。和矩阵时一样，线性变换 $\sA$ 的迹和行列式分别记为 $\tr \sA$, $\det \sA$.
不仅如此，所有方阵上的相似不变量都可以定义给线性变换（的确可以定义，不过不见得都那么有用）。
再比如说秩（不过第六节中我们用像空间的维数来定义线性变换的秩，当然结果一样）。

  \begin{example}
      考虑线性变换$\sA\colon P^{(n)}\rightarrow P^{(n)}, X\mapsto AX$.
        $\sA$在自然基下的矩阵为$A$, 因此
        \[
          \tr \sA = \tr A,\quad \det \sA=\det A,\quad \rank \sA=\rank A, \quad\cdots
        \]
        \end{example}

        \begin{example}
考虑投影变换$\sA\colon V\rightarrow V$, 其中$\sA$为投影指$\sA$满足$\sA^2=\sA$. 
在第六节例~\ref{166}~中我们会看到：存在一组基使得$\sA$的矩阵为
        \[
          \begin{pmatrix}
          E_r \\ & 0
        \end{pmatrix}. 
      \]
      这样$\tr \sA=r=\rank \sA$.
  \end{example}
\end{frame}


\begin{frame}{特征子空间}
容易看出，对于线性变换 $\mathscr{A}$ 的任一个特征值 $\lambda_{0}$, 全部适合条件
\[
\mathscr{A} \alpha=\lambda_{0} \alpha
\]
的向量 $ \alpha$ 所成的集合，也就是 $\mathscr{A}$ 的属于 $\lambda_{0}$ 的全部特征向量再添上零向量所成的集合，是 $V$ 的一个子空间，称为 $\mathscr{A}$ 的一个\emph{特征子空间} (eigenspace)，记为 $V_{\lambda_{0}}$. 
用集合记号可写为
\[
V_{\lambda_{0}}=\left\{ \alpha \in V\mid \mathscr{A}  \alpha=\lambda_{0}  \alpha \right\} .
\]
显然， $V_{\lambda_{0}}$ 的维数就是属于 $\lambda_{0}$ 的线性无关的特征向量的最大个数，亦是齐次线性方程组 $(\lambda_0 E-A)X=0$ 的解空间的维数，因而
\[
  \dim V_{\lambda_0}= n-\rank(\lambda_0 E-A).
\]
$\dim V_{\lambda_0}$ 称为特征值 $\lambda_0$ 的\emph{几何重数} (geometric multiplicity)。
而 $\lambda_0$ 作为 $\sA$ 的特征多项式的根的重数称为\emph{代数重数} (algebraic multiplicity)，或简单地，\emph{重数} (multiplicity)。
当我们说 $\lambda_0$ 是 $m$-重特征根时，我们说的是 $\lambda_0$ 的代数重数是 $m$.
代数重数和几何重数都是相似不变量：若 $A$ 和 $B$ 相似，则 $A, B$ 有相同的特征值，且对每个特征值 $\lambda_0$，$\lambda_0$ 作为 $A$ 的特征值的代数重数（转：几何重数）等于其作为 $B$ 的特征值的代数重数（转：几何重数）。
我们会在下一节证明特征值的几何重数不超过代数重数 (引理~\ref{12A})。
\end{frame}



\begin{frame}{Hamilton-Cayley定理}
最后，我们指出特征多项式的一个重要性质。
\begin{theorem}[哈密顿-凯莱 (Hamilton-Cayley) 定理]
  \label{0EA}
  设 $ A\in P^{n\times n}$,  $f(\lambda)=\det(\lambda E-A)$ 是 $A$ 的特征多项式，则
\[
f( A)=0.
\]
\end{theorem}
由线性变换和矩阵的对应保持运算可得该定理的线性变换形式：

\begin{corollary}
设 $\mathscr{A}$ 是有限维空间 $V$ 的线性变换， $f(\lambda)$ 是 $\mathscr{A}$ 的特征多项式，那么 
\[
  f(\mathscr{A})=\sO.
\]
\end{corollary}

\begin{proof}
  %令$f(\lambda)=\lambda^n+a_1 \lambda^{n-1}+\cdots+a_{n-1}\lambda+a_0$. 
  %由线性变换与矩阵的对应可知，
  若$\sA$在一组基下的矩阵为$A$, 
  则$f(\sA)$在该基下的矩阵为$f(A)$. 由定理~\ref{0EA}~知$f(A)=0$, 
  即 $f(\sA)$的矩阵为零矩阵，
  这样 $f(\sA)=\sO$为零变换。
\end{proof}

在证明Hamilton-Cayley定理之前，我们先来举例说明其应用。
\end{frame}

\begin{frame}

\begin{example}
  设 $A=
    \begin{pmatrix}
        \frac{3}{2} & \frac{1}{2}\\
        -\frac{1}{2} & \frac{1}{2}
      \end{pmatrix}\in \bR^{2\times 2}$. 我们来求 $A^{100}$. 
    $A$ 的特征多项式为 $p(\lambda)=(\lambda-1)^2$.
  设 \[\tag{5} \lambda^{n} = (\lambda-1)^2 f(\lambda) + a\lambda+b. \] 
  令 $\lambda=1$ 有 $a+b=1$. 对(5)微分再令 $\lambda=1$ 得 $a=n$, 故 $b=1-n$. 
    这样\[ \lambda^{n}=(\lambda-1)^2 f(\lambda) + n\lambda+1-n. \]
    代入 $\lambda=A$ 和 $n=100$ 到上式并应用 Hamilton-Caylay 定理可得
    \begin{align*}
      A^{100}&= 100A-99E=\begin{pmatrix}
        51 & 50 \\ -50 & -49
      \end{pmatrix}.
    \end{align*}
\end{example}

\begin{example}
  \emph{方阵 $A\in P^{n\times n}$ 可逆当且仅当存在常数项非零的多项式 $f\in P[\lambda]$ 使得 $f(A)= 0$.}
  ($\Leftarrow$) 留给读者（我们以前做过习题）。
  反过来，设 $A$ 可逆，令 $p(\lambda)$ 为 $A$ 的特征多项式。
  $A$ 可逆表明 $p(\lambda)$ 的常数项非零，又由Hamilton-Cayley定理知 $p(A)=0$. 得证。
  进而，我们知：\emph{可逆矩阵 $A$ 的逆总可表示为 $A$ 的多项式}。%
  \footnote{任一方阵$A$的伴随矩阵可表为$A$的多项式。
  如果$A$可逆，可由$A^{-1}$是$A$的多项式立得。}
  更一般地，我们有如下结论。
\end{example}

\end{frame}


\begin{frame}
  \begin{example}\label{0FC}
    对 $A\in P^{n\times n}, g(\lambda)\in P[\lambda]$, 
    \emph{$g(A)$ 可逆当且仅当 $g(\lambda)$ 与 $A$ 的特征多项式 $p(\lambda)$ 互素}。
    诚然，
    若 $g(\lambda)$ 与 $p(\lambda)$ 互素，那么存在 $u(\lambda), v(\lambda)\in P[\lambda]$ 使得
    $u(\lambda)p(\lambda)+v(\lambda)g(\lambda)=1$. 代入 $\lambda=A$ 得
    \[
      u(A)p(A)+v(A)g(A)=E.
    \]
    既然 $p(A)=0$, 我们有 $v(A)g(A)=E$, 从而 $g(A)$ 可逆，且$g(A)^{-1}=v(A)$.
    反过来，若 $g(\lambda)$ 与 $p(\lambda)$ 不互素，
    那么两个多项式有公共的复根，比如说 $\lambda_0$.
    $\lambda_0$ 作为 $p(\lambda)$ 的复根是 $A$（在复数域上）的特征值。
    进而 $g(\lambda_0)=0$ 是 $g(A)$ 的特征值 (例~\ref{18A}(3))。
    这样 $g(A)$ 作为复矩阵不可逆，因此$\det g(A)=0$. 
    这样 $g(A)$作为$P$上的矩阵不可逆
    (实际上，通过行列式的刻画可知方阵的可逆性不随域的扩张而改变)。证毕。

    ~

    例如，设 $A\in P^{4\times 4}$ 的特征多项式为 $p(\lambda)=\lambda^4-4\lambda^3+1$, 
  令 $g(\lambda)=\lambda^3-3\lambda^2+1$. 在 SageMath 中定义好 $p, g$ 后输入
  \mintinline{python}{p.xgcd(g)} 可找到一个B\'ezout等式$up+vg=1$ (或用辗转相除法手算), 其中
    \[
      u(\lambda)=-\frac{16}{3} \lambda^{2} + \frac{37}{3} \lambda + \frac{26}{3}, 
      \quad v(\lambda)=\frac{16}{3} \lambda^{3} - \frac{53}{3} \lambda^{2} - \frac{37}{3} \lambda - \frac{23}{3}.
    \]
    特别地，$p,g$ 互素，从而 $g(A)$ 可逆，且 
    \[
      g(A)^{-1}=v(A)=\frac{16}{3} A^{3} - \frac{53}{3} A^{2} - \frac{37}{3} A - \frac{23}{3}E.
    \]
  \end{example}
\end{frame}

\iffalse
\begin{frame}{矩阵多项式与多项式矩阵}

为了证明Hamilton-Cayley定理，我们引入以方阵为系数的多项式这样的概念。
令
\begin{align*}
  P[\lambda]^{n\times n}&= \left\{\begin{pmatrix}
      a_{11}(\lambda)  & \cdots & a_{1n}(\lambda) \\
      \vdots & & \vdots \\
      a_{n1}(\lambda) & \cdots & a_{nn}(\lambda)
  \end{pmatrix} ~\Bigg\vert~ a_{ij}(\lambda)\in P[\lambda] \right\}, \\
  P^{n\times n} [\lambda]&= 
  \{
    A_m \lambda^m + A_{m-1} \lambda^{m-1}+\cdots + A_0 \mid m\geqslant 0, A_i\in P^{n\times n}
  \}.
  \end{align*}
  $P[\lambda]^{n\times n}$ 中元素称为元素为多项式的矩阵（或简称为多项式矩阵），而
  $P^{n\times n}[\lambda]$ 中的元素称为系数为矩阵的多项式（或简称为矩阵多项式）。
  对数量矩阵 $A\in P^{n\times n}$, 其特征矩阵 $\lambda E-A$ 就是一个多项式矩阵。
  多项式矩阵可通过抽出每个元素（多项式）中每个 $\lambda^k$ 的系数得到一个矩阵多项式，
  如从
  \[
    \begin{pmatrix}
    \lambda^2+1 & \lambda-1 \\
    \lambda^3-\lambda^2+2 & 3
  \end{pmatrix}
\]
可得到
\[
  \begin{pmatrix}
    0 & 0 \\
    1 & 0 
  \end{pmatrix}\lambda^3 + \begin{pmatrix}
    1 & 0 \\-1 & 0 
  \end{pmatrix}\lambda^2 + \begin{pmatrix}
    0 & 1 \\ 0 & 0
  \end{pmatrix} \lambda + \begin{pmatrix}
    1 & -1 \\ 2 & 3
  \end{pmatrix}.
\]
这实际上定义了一个映射 $\varphi\colon P[\lambda]^{n\times n}\rightarrow P^{n\times n}[\lambda]$.
\end{frame}

\begin{frame}
  \begin{theorem}
  映射  
  \[
    \varphi\colon M_n(P[\lambda])\rightarrow M_n(P)[\lambda], \quad \left(\sum_{k=0}^\infty a_{ijk} \lambda^k\right)_{1\leqslant i,j\leqslant n} \mapsto \sum_{k=0}^\infty (a_{ijk})_{1\leqslant i,j\leqslant n} \lambda^k
  \]
  是环同构，其中 $i, j$ 分别用于表示矩阵的行指标、列指标。这里``$\varphi$ 是环同构''指的是：
  \begin{enumerate}
    \item $\varphi$ 保持加法和乘法，即
      对任意的 $M[\lambda], N[\lambda]\in M_n(P[\lambda])$ 有
      \begin{align*}
        \varphi(M[\lambda]+N[\lambda])&= \varphi(M[\lambda])+\varphi(N[\lambda]),  \\
        \varphi(M[\lambda]N[\lambda])&= \varphi(M[\lambda])\varphi(N[\lambda]);
      \end{align*}
    \item $\varphi$ 将单位矩阵映到单位矩阵；
    \item $\varphi$ 是双射。
  \end{enumerate}
\end{theorem}

  这样我们不必区分元素是多项式的方阵与其相应的系数是方阵的多项式。
  例如：
  \begin{small}
  \begin{align*}
    \begin{pmatrix}
      1 & \lambda \\
      0 &-5
    \end{pmatrix} + \begin{pmatrix}
      1 & -1\\
      \lambda^3-4 & 2
    \end{pmatrix} &=  \left(\begin{pmatrix}
        0 & 1 \\ 0 & 0
      \end{pmatrix} \lambda + \begin{pmatrix}
        1 & 0 \\ 0 & -5
    \end{pmatrix}\right) + 
    \left( \begin{pmatrix}
        0 & 0 \\ 1 & 0
      \end{pmatrix}\lambda^3 + \begin{pmatrix}
        1 & -1 \\ -4 & 2
    \end{pmatrix}\right),\\
   \begin{pmatrix}
      1 & \lambda \\
      0 &-5
    \end{pmatrix}\cdot \begin{pmatrix}
      1 & -1\\
      \lambda^3-4 & 2
    \end{pmatrix} &=  \left(\begin{pmatrix}
        0 & 1 \\ 0 & 0
      \end{pmatrix} \lambda + \begin{pmatrix}
        1 & 0 \\ 0 & -5
    \end{pmatrix}\right) \cdot
    \left( \begin{pmatrix}
        0 & 0 \\ 1 & 0
      \end{pmatrix}\lambda^3  + \begin{pmatrix}
        0 & -1 \\ -4 & 2
    \end{pmatrix}\right).
  \end{align*}
\end{small}

\end{frame}

\begin{frame}
  \begin{proof}
    我们只验证 $\varphi$ 保持乘法。考虑 $M_n(P[\lambda])$ 中两个方阵
  \[
      A= \left(\sum_{k} a_{ijk}\lambda^k\right)_{1\leqslant i,j\leqslant n}, \quad
      B= \left(\sum_{k} b_{ijk}\lambda^k\right)_{1\leqslant i,j\leqslant n}.
  \]
  $AB$ 的第 $(i,j)$ 位元素 $c_{ij}$ 为
  \[
    \begin{aligned}
      c_{ij}&= \sum_{l} \left( \sum_{k} a_{ilk}\lambda^k \right) \left( \sum_{k} b_{ljk}\lambda^k \right)\\
      &= \sum_{l} \sum_k \left( \sum_{k_1+k_2=k} a_{ilk_1} b_{ljk_2}\right) \lambda^k\\
      &= \sum_{k} \sum_l \left( \sum_{k_1+k_2=k} a_{ilk_1} b_{ljk_2}\right) \lambda^k.
    \end{aligned}
  \]
  故 $c_{ij}$ 中 $\lambda^k$ 的系数为 $\sum_l\sum_{k_1+k_2=k} a_{ilk_1} b_{ljk_2}$.
  因此
\end{proof}
\end{frame}

\begin{frame}
  \begin{proof}[续]
    \[
      \varphi(AB)=\sum_{k}\left( \sum_l\sum_{k_1+k_2=k} a_{ilk_1} b_{ljk_2} \right)_{1\leqslant i,j\leqslant n} \lambda^k.
    \]
    另一方面，$\varphi(A)\varphi(B)$ 中 $\lambda^k$ 的系数 $C_k$ 为方阵
    \[
        \begin{aligned}
            C_k&= \sum_{k_1+k_2=k}\left(  a_{ijk_1} \right)_{1\leqslant i,j\leqslant n}  \left( b_{ijk_2} \right)_{1\leqslant i,j\leqslant n}\\
              &= \left( \sum_{k_1+k_2=k} \left(\sum_l a_{ilk_1} b_{ljk_2}\right) \right)_{1\leqslant i,j\leqslant n} \\
                &= \left(\sum_l \sum_{k_1+k_2=k}  a_{ilk_1} b_{ljk_2} \right)_{1\leqslant i,j\leqslant n}.
                  \end{aligned}
                  \]
                  $C_k$ 恰是 $\varphi(AB)$ 中 $\lambda^k$ 的系数。由此可知 $\varphi(AB)=\varphi(A)\varphi(B)$. 
                \end{proof}
\end{frame}
\fi
\begin{frame}{Hamilton-Cayley定理的证明}

  \begin{proof}
    设 $ B(\lambda)$ 是 $\lambda  E- A$ 的伴随矩阵， 由行列式的性质， 有
\[
 B(\lambda)(\lambda  E- A)=|\lambda  E- A|  E=f(\lambda)  E .
\]
因为矩阵 $ B(\lambda)$ 的元素是 $|\lambda  E- A|$ 的各个代数余子式， 都是 $\lambda$ 的多项式， 其次数不超过 $n-1$. 因此由矩阵的运算性质%
%\footnote{严格说来，我们是在 $P[\lambda]$ 上的 $n$ 阶矩阵构成的 $P[\lambda]$-代数 $P[\lambda]^{n\times n}$ 中运算，不过运算性质跟我们熟悉的域上的情况一致。}
， $ B(\lambda)$ 可以写成
\[
 B(\lambda)=\lambda^{n-1}  B_{0}+\lambda^{n-2}  B_{1}+\cdots+ B_{n-1},
\]
其中 $ B_{0},  \cdots,  B_{n-1}$ 都是 $n \times n$ 数字矩阵。
再设 
\[
  f(\lambda)=\lambda^{n}+a_{1} \lambda^{n-1}+\cdots+a_{n-1} \lambda+a_{n},
\]
则
\[\tag{6}
f(\lambda) E=\lambda^{n} E+a_{1} \lambda^{n-1} E+\cdots+a_{n} E .
\]
而
\[\tag{7}
\begin{aligned}
 B(\lambda)(\lambda  E- A) &= \left(\lambda^{n-1}  B_{0}+\lambda^{n-2}  B_{1}+\cdots+ B_{n-1}\right)(\lambda  E- A) \\
&=   \lambda^{n}  B_{0}+\lambda^{n-1}\left( B_{1}- B_{0}  A\right)+\lambda^{n-2}\left( B_{2}- B_{1}  A\right) \\
&\quad  +\cdots+\lambda\left( B_{n-1}- B_{n-2}  A\right)- B_{n-1}  A .
\end{aligned}
\]
\end{proof}

\end{frame}

\begin{frame}

  \begin{proof}[续]
比较 (6) 和 (7), 得
\setlength{\arraycolsep}{1pt}
\[\tag{8}
\left\{\begin{array}{rl}
 B_{0}&= E, \\
 B_{1}- B_{0}  A&=a_{1}  E, \\
 B_{2}- B_{1}  A&=a_{2}  E, \\
\quad \ldots \ldots \ldots \ldots \\
 B_{n-1}- B_{n-2}  A&=a_{n-1}  E, \\
- B_{n-1}  A&=a_{n}  E .
\end{array}\right.
\]
以 $ A^{n},  A^{n-1}, \cdots,  A,  E$ 依次从右边乘 (8) 的第 $1,2, \cdots, n, n+1$ 式，得
\setlength{\arraycolsep}{1pt}
\[\tag{9}
\left\{\begin{array}{rl}
 B_{0}  A^{n}&= E  A^{n}= A^{n}, \\
 B_{1}  A^{n-1}- B_{0}  A^{n}&=a_{1}  E  A^{n-1}=a_{1}  A^{n-1}, \\
 B_{2}  A^{n-2}- B_{1}  A^{n-1}&=a_{2}  E  A^{n-2}=a_{2}  A^{n-2}, \\
\quad \ldots \ldots \ldots \ldots, \\
 B_{n-1}  A- B_{n-2}  A^{2}&=a_{n-1}  E  A=a_{n-1}  A, \\
- B_{n-1}  A&=a_{n}  E .
\end{array}\right.
\]
把 (9) 的 $n+1$ 个式子一起加起来， 左边变成零， 右边即为 $f( A)$.
故 $f( A)= 0$. 证毕。
\end{proof}

\end{frame}

\begin{frame}{小结}
  \begin{enumerate}
    \item 何谓特征值、特征向量？如何找到所有的特征值、所有的特征向量？
    \item 特征多项式的系数如何 ($\lambda^{n-1}$的系数和常数项)？跟特征值有何关系？
    \item 你知道哪些相似不变量？
    \item 何为特征子空间？其维数又如何给？
    \item 何为Hamilton-Cayley定理？
  \end{enumerate}
\end{frame}
